~今天要分享的是「資料清洗」~
資料清洗是資料分析前的關鍵步驟之一,同時也是資料預處理的一部分。它的主要目的是處理原始數據中的錯誤和不一致性,以確保資料的品質。以下是一些資料清洗中常見的情況:
→建立資料框
import pandas as pd
import numpy as np
data = pd.DataFrame([
[1,"apple",3],
[4,np.nan,5],
[None,"banana",7],
[8,"apple",10],
[np.nan,"apple",12],
[5,"banana",8],
[4,None,5],
[4,"apple",100],
[9,"apple",4],
[np.nan,"apple",8]
])
data
→確認哪些是空值
data.isnull()
→兩種處理方式
方式一、刪除缺失值
#刪除缺失值
data.dropna()
方式二、缺失值補值
#缺失值補值
print("第零行平均數為:",data[0].mean())
print("第一行眾數為:",data[1].mode(dropna=True))
data[0].fillna(5,inplace=True)
data[1].fillna("apple",inplace=True)
data
#重複數據刪除
data.drop(index=6,inplace=True)
data
#異常值刪除
data.drop(index=7,inplace=True)
data
#資料型別轉換
data[0]=data[0].astype(int)
data
#時間序列處理
import pandas as pd
date=pd.Series(["18-9-2023","17-9-2023","2023-9-16","9-15-2023","2023/9/14"])
pd.to_datetime(date,dayfirst=True)
import pandas as pd
data1 = pd.DataFrame([
[1,1000],
[4,1090],
[6,1055],
[8,1029],
[3,1048],
[5,1095],
[4,1037],
[2,1026],
[6,1083],
[2,1034]
])
data1
→標準化資料
#數據標準化
from sklearn.preprocessing import StandardScaler
standar=StandardScaler()
standar.fit_transform(data1)